0%

(CVPR 2016) Deep region and multi-label learning for facial action unit detection

Keyword [Facial Action Units]

Zhao K, Chu W S, Zhang H. Deep region and multi-label learning for facial action unit detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3391-3399.



1. Overview


在人脸AU检测中,存在两种常见的任务

  • Region Learning (RL)
  • Multi-label Learning (ML)
    论文将两者进行结合,提出能够同时解决上述两个任务的框架Deep Region and Multi-label Learning (DRML)。


框架中包含一个region laryer结构。 region layer可通过两种方式设计

  • locally connected layers (LCN). 每个像素点对应一个卷积核(参数量较大)
  • conventional convolution layers. 首先将输入特征图分成n*m个region, 每个region内的像素点共享卷积核权重(即每个region通过一个卷积层)


DRML框架特点

  • end to end训练
  • non-linear模型
    论文在BP4DDISFA数据集上进行实验,对比F1-score和AUC评价指标。

1.1. Region Learning

  • 通过传统方法识别特定的区域来提高检测性能(类似于Attention)。例如patch-based方法,首先将图像划分为patch,然后将patch分类为普通patch和特定patch来描述不同的表情
  • patch-based 缺点. easily fail on faces with modest or large pose (某些patch中部分相关,但被排除在外,没有用于识别,从而导致性能降低)


1.2. Multi-label Learning

  • 传统的AU检测方法(AdaBoost、SVM等)都是对某个AU进行检测
  • ML对于每个表情,同时预测多个AU。 能够在一定程度上解决正负样本不平衡的问题

1.3. 评价指标

  • F1-score. precision和recall的调和均值,常用于AU检测
  • AUC. 量化true positive和false positive之间的关系



2. DRML结构


大多数表情分析都使用很小的人脸图像(如4848)作为输入,为了避免人脸微小细节的丢失,论文使用**170170**大小的图像作为输入。

2.1. Loss Function



2.2. Region Layer

  • 人脸图像相对于自然图像更加结构化,不同的人脸区域具有不同的局部统计。因此,可使用LCN(参数太多)或者区域卷积进行处理
  • 可看做是对每个区域进行Attention操作


结构包含三部分

  • patch clipping (论文采用8*8 grid)
  • local convolution
  • identity addition (避免梯度消失;如果patch与AU检测无关,it would be easier to directly forward the patch than learning a filter bank to reduce the patch’s effect)

2.3. Region可视化

使用saliency map(通过计算每个像素点对于某个特定AU的梯度级数)进行可视化。

2.4. 与相关工作的比较



DRML受JPML启发,但存在不同之处

  • JPML通过对数据集统计,定义AU关系
  • JPML使用manually-crafted feature (SIFT)
  • JPML轮流学习PL和ML
  • JPML线性



3. Experiments


200200图像random crop为170170,并进行horizontally mirrored。

  • DRML收敛更快,训练loss更低,更接近gt统计



  • DRML比LCN速度快;ConvNet(去掉Region Layer的DRML)比AlexNet速度慢(由于卷积核为11*11)



3.1. BP4D&DISFA实验结果




  • learned features are of lower dimension, more than 40% of learned features for AlexNet, LCN, and DRML, are zeros
  • Multi-label训练提高了效果
  • 当训练数据很少时,multi-label学习能够减少imbalance的影响